Temat Celem projektu jest zbadanie, jaki wpływ na końcowe wyniku testu ma przyjęta strategia rozwiązywania zadań przez uczniów.

Faza I

Dane

Dane pochodzą z projektu PISA 2015. Zawierały 8 557 694 wierszy opisujacych czas rozwiązywania danego zadania przez danego ucznia. Dane zawierają informacje o kraju i szkole, z której pochodził uczeń, numer rozwiązywanego zestawu, typ zadania (czytanie, matematyka) oraz numer części testu, w kt órej to zadanie się znajdowało. Aby ułatwic prace nad danymi zamieniłyśmy czas podany w tysięcznych sekundy na minuty.

dane <- onlyTimingsLong
head(dane)
##            Kraj  Szkola Student Zestaw    Czas Zadanie Pozycja Obszar
## 10737 Australia 3600001 3601769     31  195552 R219Q01       3      R
## 10742 Australia 3600001 3605983     85  143354 R219Q01       2      R
## 10747 Australia 3600001 3602143     36  206815 R219Q01       4      R
## 10759 Australia 3600002 3611016     37  117352 R219Q01       1      R
## 10787 Australia 3600003 3605314     36  174955 R219Q01       4      R
## 10794 Australia 3600003 3611875     41 1269775 R219Q01       2      R

Wstępna analiza danych

W tabeli zostały zamieszczone dane z 58 krajów. Zadania znajdowały sie w 63 zestawach. Liczba zadan z matematyki i czytania jest różna. Ponadto jestst bardzo mało uczniów, którzy pisali jednocześnie zadania z matematyki i czytania. Liczba pozycji jest takze rożna i nie ma uczniow, którzy rozwiązywali więcej niż 2 pozycje. W danych spodziewałyśmy się znalezienia 4 pozycji, ponieważ tak skonstruowany jest test, jednak pojawia się też pozycja “-1”- być może są to dane testowe, nie jest to liczna grupa zadań (dla 4118 studentów). Jednak są uczniowie, dla których dysponujemy tylko danymi z tej pozycji. Postanowiłyśmy usunąć takie rekordy.

length(levels(as.factor(dane$Zestaw)))
## [1] 63
summary(dane$Obszar)
##       M       R 
## 3892191 4665503
summary(dane$Pozycja)
##      -1       1       2       3       4 
##   30956 2173768 2061298 2167872 2123800
table(dane$Obszar,dane$Pozycja)
##    
##          -1       1       2       3       4
##   M   16371  986204  945464  979987  964165
##   R   14585 1187564 1115834 1187885 1159635

Poniżej prezentujemy, jakich danych dostyczą kraje

summary(dane$Czas)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##   0.0024   0.5973   1.1170   1.4510   1.8980 734.0000
## Liczba pozycji na studenta przy pozycjach -1,1,2,3,4
##      1      2 
##  77170 299510
## Liczba pozycji na studenta przy pozycjach 1,2,3,4
##      0      1      2 
##   4118  73054 299508

jest 4118 uczniów, którzy mają uzupelnioną tylko pozycję -1.

Czyszczenie danych

Z danych usunęłyśmy tych studentów, których suma czasu jaki poświęcili na zadania była większa niż 120 (bo tyle minut trwał test), oraz tych uczniów, którzy rozwiązali mniej niż 10 zadań. Usunęłyśmy również zadania z Pozycją -1.

## Rekordów do usunięcia z powodu za dużego czasu:  96838 
##  Rekordów do usunięci z powodu błędnej pozycji:  30956 
##  Rekordów do usunięcia z powodu małej ilości zadań:  2219

Zadania matematyczne i z rozumienia tekstu w zależności od kraju

Poniżej zamieszczamy wykres średniego czasu wykonywania zadań w poszczególnych krajach w zależności od obszaru testu.

Z wykresu wyraźnie widzimy, że na zadania matematyczne uczniowie średnio poświęcali więcej czasu niż na zadania dotyczące czytania.

Na poniższej mapie mamy rozróżnione kraje względem średniego czasu rozwiązywania jednego zadania. W pliku napotykamy też bardzo duże wartości czasu, które znacznie odbiegają od realiów testu.

Postanowiłyśmy zbadać średni czas rozwiązywania zadania przez przeciętnego ucznia dla każdego kraju. Poniżej wykres otrzymanych wartości dla wszystkich krajów

## Warning: Removed 347 rows containing non-finite values (stat_ydensity).

Faza II

W raporcie posłużymy się danymi oczyszczonymi w fazie 1. Spróbujemy zróżnicować zachowania studentów różnych szkół w zależnosci od czasu rozwiązywania zadań w różnych pozycjach testu oraz zależnie od obszaru.

Szkoła- rozróżnienie względem pozycji testu

Analizując strategie uczniów, warto zbadać średni czas wykonywania zadań w każdej z pozycji zależnie od szkoły. Szybkośc rozwiązywania poszczególnych pozycji może być istotnym elementem strategii.

szkoly_pozycje <- dane %>% group_by(Kraj,Szkola,Pozycja) %>%
  summarise(srednia=mean(Czas))

szer2 <- spread(szkoly_pozycje, key=Pozycja, value=srednia)

kable(head(szer2))
Kraj Szkola 1 2 3 4
Australia 3600001 1.714738 1.476135 1.287331 1.073811
Australia 3600002 1.383775 1.348908 1.364129 1.297679
Australia 3600003 2.054243 1.480850 1.416849 1.435354
Australia 3600004 1.330350 1.298852 1.271818 1.368307
Australia 3600005 1.888812 1.504586 1.699385 1.903631
Australia 3600006 1.574090 1.206749 1.558074 1.370092

Brakujące statystyki zastąpimy średnim czasem reszty szkół. Na tak przygotowanych danych przeprowadzamy analizę hierarchiczną metodą Warda. Poniżej przedstawiamy dendrogram.

Nie jest jasne, ile grup nalezy wyróżnić. Poniżej wykresy dla podziałów na 2-9 grup zmapowanych na płaszczyznę. Rozkład punktów różni się między wykresamu, ze względów obliczeniowych (rzutowanie na płaszczyznę tylu obserwacji i zachowanie ich struktury jest trudne obliczeniowo)- są to reprezentacje najbardziej uwydatniające dany podział. Dla każdego wylosowana została reprezentatywna względem wyróżnionych grup próbka z danych, a w kolejnym kroku przeprowadzone zostało mapowanie.

Dla podziałów większych niż k=5 widać duże rozbieżności wewnątrz grup, co sugeruje, że nie są to optymalne podziały.

## Liczność poszczególnych grup
##    1    2    3    4 
## 3804 4644 3070 3648

Spróbujmy rozróżnić zachowania szkół wśród wyróżnionych grup względem średniego czasu spędzanego nad zadaniem z każdej pozycji.

Na powyższych wykresach bardzo wyraźnie widać różnice między grupami. Na ich podstawie możemy nazwać zachowania poszczególnych grup szkół:

grupa nazwa_grupa_p
1 coraz szybciej
2 dość równe
3 1 i 3 dłużej
4 dość równe-wersja szybsza

Ciekawym jest pytanie, czy w obrębie krajów szkoły pozostają w tych samych grupach. Na poniższym wykresie widzimy, że dla krajów, które znalazły się wysoko w rankingu średnich czasów rozwiązywania wszystkich zadań przeważa grupa 4, dla krajów z końca rankingu grupa 3.

Szkoły- rozróżnienie względem obszarów testu

Kolejnym interesującym nas zagadnieniem była zależność czasu rozwiązywania zadań od obszarów. Szybkość rozwiazywania zadań z danego obszaru może być spowodowana systemem edukacji, jaki panuje w danym kraju i podejściem do danego obszaru w tym kraju.

szkoly_obszary<- dane %>% group_by(Kraj,Szkola,Obszar) %>%
  summarise(srednia=mean(Czas))

szer3 <- spread(szkoly_obszary, key=Obszar, value=srednia)
## Source: local data frame [6 x 4]
## Groups: Kraj, Szkola [6]
## 
##        Kraj  Szkola        M        R
##      <fctr>   <dbl>    <dbl>    <dbl>
## 1 Australia 3600001 1.549311 1.111412
## 2 Australia 3600002 1.594608 1.108953
## 3 Australia 3600003 1.774779 1.421931
## 4 Australia 3600004 1.542623 1.163666
## 5 Australia 3600005 1.826427 1.641145
## 6 Australia 3600006 1.570821 1.196904

W zbiorze jest 252 szkoły, dla których brakuje danych dla jednej z tych kategorii- jest to niewielka część naszego zbioru, ponadto taki brak świadczy o małej ilości danych dla takiej szkoły. Takie kraje pominiemy w naszej analizie.

Poniżej przedstawiamy dendrogram podziałów.

Wykresy podziału Szkół na grupy- ponieważ mamy tylko dwie zmienne, nie potrzebujemy mapowania na płaszczyznę.

Analiza dendrogramu i wykresów dla podziałów na 2-9 grup zmapowanych na płaszczyznę skłoniła nas do wybrania 4 grup.

## Liczności grup
##    1    2    3    4 
## 5145 4247 3886 1636

Powyższe wykresy skrzypcowe potwierdzają zróżnicowanie wybranych grup pod względem średniego czasu rozwiązwywania zadań dla obszaru matematycznego i czytania. Na podstawie tych wykresów możemy nazwać zachowania poszczególnych grup szkół:

grupa nazwa_grupa_o
1 M_srednio_R_srednio
2 M_wolno_R_srednio
3 M_wolno_R_wolno
4 M_szybko_R_szybko

Po raz kolejny warto spojrzeć jak poszczególne grupy mają się do poszczególnych krajów.

Połączenie dwóch podejść i podsumowanie

Ostateczne grupy chcemy połączyć przez przecięcie grup odpowiadających pozycjom i obszarom. Mało liczne przecięcia, tj. poniżej 1000 szkół uznamy za niepasujące do żadnego większego wzorca. Liczność przecięć przedstawia się następująco:

##                            
##                             M_srednio_R_srednio M_szybko_R_szybko
##   1 i 3 dłużej                              126                10
##   coraz szybciej                           2243               216
##   dość równe                                661                 7
##   dość równe-wersja szybsza                2115              1403
##                            
##                             M_wolno_R_srednio M_wolno_R_wolno
##   1 i 3 dłużej                            817            2034
##   coraz szybciej                         1127             157
##   dość równe                             2225            1680
##   dość równe-wersja szybsza                78              15
Udział procentowy poszczególnych pozycji w obszarach

Zgodnie z oczekiwaniami, grupy rozwiązujące zadania z M i R szybciej są grupami “przespieszającymi”.

Przedstawiamy ostateczne nazwy wraz z licznościami grup. Łącznie 1522 szkół uznajemy jako niepasujące do żadnego większego wzorca.
Udział procentowy poszczgólnych grup-P w grupach-O

##            coraz szybciej M_srednio_R_srednio 
##                                          2243 
##              coraz szybciej M_wolno_R_srednio 
##                                          1127 
##                  dość równe M_wolno_R_srednio 
##                                          2225 
##                    dość równe M_wolno_R_wolno 
##                                          1680 
##                1 i 3 dłużej M_wolno_R_srednio 
##                                           817 
##                  1 i 3 dłużej M_wolno_R_wolno 
##                                          2034 
## dość równe-wersja szybsza M_srednio_R_srednio 
##                                          2115 
##   dość równe-wersja szybsza M_szybko_R_szybko 
##                                          1403 
##                                          NA's 
##                                          1522

Faza III

Widzimy, że nie ma dużej zależności między ęrednim czasem rozwiązywania całego testu, a wynikami. Są kraje, które mimo wysokiej pozycji w rankingu średnich czasów miały bardzo słabe wyniki np. Katar, oraz takie, które mimo dużych czasów rozwiazywania zadań dość dobrze wypadły w rankingu punktowym np. Estonia.

kod_gr grupa_nazwa
11 coraz szybciej M_srednio_R_srednio
12 coraz szybciej M_wolno_R_srednio
22 dość równe M_wolno_R_srednio
23 dość równe M_wolno_R_wolno
32 1 i 3 dłużej M_wolno_R_srednio
33 1 i 3 dłużej M_wolno_R_wolno
41 dość równe-wersja szybsza M_srednio_R_srednio
44 dość równe-wersja szybsza M_szybko_R_szybko
NA NA

Z wykresu możemy zaobserwować następujące zależności:

  • Strategie coraz szybciej M_srednio_R_srednio, coraz szybciej M_wolno_R_srednio i dość równe M_wolno_R_srednio (na wykresie 11,12,22) są równomiernie rozłożone we wszystkich krajach wewnątrz rankingu (bez skrajnych). Przy drugiej z wymienionych w tym paragrafie strategii obserwujemy minimalnie częstsze stosowanie w krajach z drugiej połowy rankingu.

  • Strategie dość równe M_wolno_R_wolno, 1 i 3 dłużej M_wolno_R_srednio(na wykresie 23, 32)są stosowane w krajach z drugiej połowy rankingu.

  • Strategia 1 i 3 dłużej M_wolno_R_wolno (na wykresie 33) jest stosowana zgodnie z regułą: im niżej w rankingu czasów, tym częściej.

  • Strategie dość równe-wersja szybsza M_srednio_R_srednio i dość równe-wersja szybsza M_szybko_R_szybko (na wykresie 41, 44)są stosowane zgodnie z regułą: im wyżej w rankingu czasów, tym częściej, przy czym dwa pierwsze kraje zdecydowanie częściej stosują drugą z wymienionych.

  • Grupa szkół niezaliczonych do żadnej z opisanych powyżej grup, ze względu na kraje rozkłada się dość równomiernie.

Porównanie strategii czasowej z wynikami

Kolejną rzeczą, którą chciałyśmy sprawdzić jest zależność średnich czasów i rozkładu wyznaczonych przez nas grup od wyników uzyskanych przez badane kraje. Na podstawie danych ze strony PISA stworzyłyśmy ranking wyników. Rozważamy tutaj sumę punktów uzyskanych w dwóch rozważanych przez nas częściach testów- Czytanie i Matematyka.

##                      V1   V2
## 1             Australia  997
## 2               Austria  982
## 3               Belgium 1006
## 4                Canada 1043
## 5                 Chile  882
## 6        Czech Republic  979
## 7               Denmark 1011
## 8               Estonia 1039
## 9               Finland 1037
## 10               France  992
## 11              Germany 1015
## 12               Greece  921
## 13              Hungary  947
## 14              Iceland  970
## 15              Ireland 1025
## 16               Israel  949
## 17                Italy  975
## 18                Japan 1048
## 19                Korea 1041
## 20               Latvia  970
## 21           Luxembourg  967
## 22               Mexico  831
## 23          Netherlands 1015
## 24          New Zealand 1004
## 25               Norway 1015
## 26               Poland 1010
## 27             Portugal  990
## 28      Slovak Republic  928
## 29             Slovenia 1015
## 30                Spain  982
## 31               Sweden  994
## 32          Switzerland 1013
## 33               Turkey  848
## 34       United Kingdom  990
## 35        United States  967
## 39               Brazil  784
## 40      B-S-J-G (China) 1025
## 41             Bulgaria  873
## 43             Colombia  815
## 44           Costa Rica  827
## 45              Croatia  951
## 47   Dominican Republic  686
## 56            Lithuania  950
## 61           Montenegro  845
## 62                 Peru  785
## 63                Qatar  804
## 66            Singapore 1099
## 67       Chinese Taipei 1039
## 68             Thailand  824
## 70              Tunisia  728
## 71 United Arab Emirates  861
## 72              Uruguay  855

Z wykresu możemy zaobserwować podobne zależności jak na wykresie z poprzedniego paragrafu, jednak bywają odstępstwa, spowodowane tym, ze niektóre kraje mimo wolniejszego rozwiązywanie zadań uzyskały wysokie wyniki. Na największą uwagę zasługują grupy:1 i 3 dłużej M_wolno_R_wolno (na wykresie 33), która zdecydowanie przeważa w krajach z niskimi wynikami, oraz dość równe-wersja szybsza M_srednio_R_srednio i dość równe-wersja szybsza M_szybko_R_szybko (na wykresie 41, 44), które ponownie wyznaczają najlepsze grupy

Podsumowanie

Nasze podejście, czyli przecięcie grup ze względu na obszary z grupami ze względu na pozycje, nie dało znaczących rezultatów. Grupy, które stworzyłyśmy to najczęściej sumy grup z poprzednich podejść.

Na podstawie przeprowadzonej analizy możemy opisać dwie najważniejsze grupy strategii rozwiązywania zadań: * Strategie wygrywające, czyli takie, które utrzymywały równe tempo rozwiązywanie zadań przez cały czas test i dobrze rozplanowały sobie czas poświęcony na jego pisanie, a część matematyczną i z czytania rozwiązywały ze średnią lub szybką prędkością * Strategia przegrywająca, czyli taka, w której uczniowie dłużej spędzali na pierwszej i trzeciej część testu, czyli źle rozplanowali czas (test odbywa się w dwóch etapach: 1 i 2 część-przerwa-3 i 4 część), a zadania matematyczne i z czytania rozwiązywali wolno.